自然语言中存在依存距离最小化倾向
小编按:学科交叉融合是当前学术发展的重要趋势,不仅有利于培养创新型、复合型人才,更有利于推动社会经济的高质量持续发展。习近平总书记在全国科技创新大会和两院院士大会上,曾多次强调培育交叉学科的重要性和紧迫性。最近,我国在交叉学科研究的制度方面又有新的重大举措,教育部设置了“交叉学科”门类(门类代码为“14”),国家自然科学基金委也适时成立“交叉科学部”。另外,党的十九届四中全会明确将数据看作一种新型的生产要素。对于任何与时俱进的学科而言,如何基于数据开展交叉学科研究成为当务之急,语言学作为一门“领先学科”自然也不例外。从即日起,本号开始推送浙江大学刘海涛教授团队的一组科普短文,以期充分体现语言研究的数据驱动本质和语言学内在的交叉学科性质。这组短文原刊发于2015年11月13日《浙江大学报》第576期第3版,今天推送的是徐春山教授和梁君英教授的文章《自然语言中存在依存距离最小化倾向》。
作者简介:徐春山,现为安徽建筑大学外国语学院教授;梁君英,现为浙江大学外语学院教授。
在我们的日常语言中,一个句子中的词与词之间是有关系的。比如,“我买了很多苹果”这个句子,“我”是“买”的主语,“苹果”是“买”的宾语,“很多”是“苹果”的定语等等。这些都是句法,或者通俗一点地说,是语法层面的关系。
那么句子中这些有句法关系的词是随意排列的吗?答案显然是否定的:如果随意改变句子中词的顺序,句子可能变得难以理解,甚至根本无法理解。这些有句法关系的词在句子中的位置似乎总有一定的规律。从认知的角度来看,这种规律可能与依存距离有关,也就是句子中两个有句法关系的词之间的线性距离,其长度取决于间隔词的数量。上面这个例句中谓语动词“买”和宾语“苹果”之间间隔了“很多”以及“了”这2个词。根据具体计算方法的不同,其依存距离是2或3。
依存距离是依存语法的重要概念,而依存语法认为句法分析的目的就是按照句子的线性顺序一个词一个词地进行处理分析,找出每个词与句子中其它词之间存在的句法关系。
作为一种认知活动,句法分析过程与工作记忆关系密切。工作记忆对依存距离有很大的影响,因为两个词之间的距离越长,前面那个词被遗忘的程度可能就越高。这样一来,在当前正在处理的词与前词之间建立句法关系可能就越困难。其原因可能是中间的词对记忆造成干扰,也可能是两个词之间间隔时间较长导致了记忆衰退,或者是中间的词占据了有限的工作记忆资源。总之,较长的依存距离(两个有句法关系的词之间有较多的间隔词语)可能带来更重的认知负荷,导致更大的句法处理复杂度。
语言系统演化的一个重要支配原则是省力原则,也就是要尽量减少语言处理的复杂度。鉴于此,人类语言理应偏好依存距离较小的结构,这就是依存距离最小化倾向。人类的工作记忆机制应当是相同的。这意味着,依存距离最小化倾向可能并不是某种语言的特殊倾向,而是所有人类语言的普遍特征,是一个受普遍认知机制所制约的语言普遍特征。但这只是语言学家的一个推论,需要进行大量的实证研究来验证。
近20年来,人们通过语言心理学实验对依存距离进行了较多的研究,结果大都表明较短的依存距离处理难度也较小。但是,语言心理学实验使用的语言材料往往是人为编制的语句,数量极为有限,涉及的语言以及受试人数都比较有限。换句话说,其结果可能缺乏普适的说服力。因此,就依存距离最小化这一语言普遍特征(模式)而言,基于多语种语料库的大数据研究方法可能是心理学实验的重要补充手段。近十年来,语料库统计方法在依存距离最小化研究中开始占据越来越重要的地位,在这一方面我们团队的研究成果处于世界领先水平。
2004年,西班牙学者Ramon Ferrer-i-Cancho对罗马尼亚语的树库(依存标注语料库)进行了研究,发现在大规模的真实语料中,依存距离趋向于一个比较小的值。
在同一时期,我们对汉语树库也进行了研究,得出了相同的发现。随后我们的研究团队进一步扩大样本库,对包括汉语在内的20种语言进行了研究,同时我们还生成了两种随机语言,与这20种真实自然语言的依存距离进行比较,具体结果可见图1。所谓随机就是说这不是人类真正的语言,是不符合语法的。从图1中我们可以看出,真实语言的依存距离更小。这是在人类历史上第一次在多语种语料库的基础上用大数据方法证明了自然语言中可能存在依存距离最小化这一普遍特征。
最近麻省理工学院(MIT)的研究团队用37种语言进行了类似的研究,其结果支持了我们先前的发现,再次证明自然语言中可能存在依存距离最小化这一普遍特征。MIT的研究结果发表在2015年出版的美国科学院院刊(PNAS)上,文中也特别指出他们的研究是我们2008年研究的补充与精细化。
作为人类语言的普遍特征,依存距离最小化倾向反映了人类语言如何在普遍认知机制约束下运作与演化。从这个意义上说,依存距离最小化研究是一个具有交叉学科特点的研究领域,融合了语言学、统计学、大数据、认知科学等学科的理论与方法。